package cn.sccdlg.webmagic.test;

import us.codecraft.webmagic.Page;
import us.codecraft.webmagic.Site;
import us.codecraft.webmagic.Spider;
import us.codecraft.webmagic.processor.PageProcessor;

/**
 * @author RaoShuang
 * @emil 991207823@qq.com
 * @date 2020/11/29 20:12
 * WebMagic入门
 *  抓取京东电脑描述信息
 */
public class JobProcessor implements PageProcessor {

    /**
     * 解析页面
     * @param page
     */
    public void process(Page page) {
        //解析返回的数据page，并把解析的结果放入到ResultItems中
        page.putField("div",page.getHtml().css("div.p-name.p-name-type-3 em").all());
    }

    private Site site = Site.me();

    public Site getSite() {
        return site;
    }

    /**
     * 主函数，执行爬虫
     */
    public static void main(String[] args) {
        Spider.create(new JobProcessor())
                .addUrl("https://list.jd.com/list.html?cat=670%2C671%2C672&go=0") //设置爬取数据的url
                .run(); //执行爬虫
    }
}
